from datasets import load_dataset, load_from_disk
import os
#hugging face 在线加载数据, 这种方式，不管本地有没有，都需要联网
# dataset = load_dataset(path="NousResearch/hermes-function-calling-v1", split="train")
# print( dataset)

try:
    # 尝试从本地加载
    dataset = load_from_disk(r"D:\AI\dataset2\hermes-function-calling-v1")
    print("成功从本地加载数据集")
except FileNotFoundError:
    # 如果本地没有，则从在线加载并保存
    print("本地未找到数据集，从在线加载...")
    dataset = load_dataset(path="NousResearch/hermes-function-calling-v1")
    print("在线数据集加载完成，保存到本地...")
    dataset.save_to_disk(r"D:\AI\dataset2\hermes-function-calling-v1")
    print("数据集已保存到本地")

# 加载本地磁盘数据
print(dataset)

# 取出测试集
test_dataset = dataset["train"]
print(test_dataset)

# 查看数据集
for item in test_dataset:
    print(item)